金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

大数据时代新的数据生命周期管理轨迹

2015-01-13 17:45:10作者:中国人民银行武汉分行 刘晓编辑:金融咨询网
随着大数据时代的到来,金融数据中心数据管理平台的数据逐渐增多导致系统性能逐渐下降,严重影响了系统效用的发挥。因此,基于数据生命周期理论,对数据管理平台进行优化的需求日渐紧迫。

        (1)在线阶段的数据存储方案
        在线阶段的数据使用频率高,因此对在线数据主要考虑如何提高系统的处理性能,在线数据的物理存储及逻辑存储思路具体如下所述。

        在线数据的物理存储方式。在线数据仍然采用目前数据管理平台的SAN网络存储方式,即数据管理平台数据库服务器通过光纤交换机连接光纤磁盘阵列以及磁带库。数据库服务器逻辑上通过4条链路连接至磁盘阵列,根据磁盘阵列光纤链路的双活特性,这4条链路既同时传输数据,又互为备份,保障了数据传输的速率和可靠性。

        在线数据的逻辑存储方式。在线数据的数据库存储方式上采用分区数据库方式存储数据,提高目前数据的装载以及查询性能。分区数据库常用的两种方式为数据库分区、表分区方式;数据库分区方式将表的数据行按哈希函数分布到多个数据库分区上,而表分区采用将同一范围(如同一月份)的数据放在独立的数据分区中。数据库分区支持大规模的并行处理,表分区支持快速的导入导出数据,由于省级数据管理平台的功能侧重在于数据的加载抽取,因此更适合采用表分区方式建立分区数据库。基于以上的分析,对省级数据管理平台中的历史类数据表采用表分区的方式,划分12个在线数据分区,分别存放l~12月的数据。数据在加载入库时,仅针对其中一个数据分区操作,在数据入库的同时,查询其它分区的数据,性能会得到极大的改善。

        (2)近线阶段的数据存储方案
        近线阶段的数据使用频率相对在线数据要低,通常因为特殊的原因需要查询其中的记录,因此对近线数据,系统处理性能不是主要的影响因素,需要提供较大空间的存储来保存这些数据。近线数据的物理存储及逻辑存储思路具体如下所述:

        近线数据的物理存储方式。近线数据存储需要新增一套低端的SATA磁盘阵列,接入目前在线数据的SAN网络中,即SATA磁盘阵列通过目前已有的光纤交换机与数据管理平台数据库服务器、IBM磁带库连接。

        近线数据的逻辑存储方式。为便于在线数据的迁移,近线数据存储采用与在线数据相同的存储方式,即采用分区数据库的表分区方式。在数据管理平台中新建近线数据库实例及数据库,该数据库建立12个近线数据分区,与12个在线数据分区一一对应,用于在线数据库分区的数据转存至近线数据库对应的分区中。

        (3)离线数据的数据存储方案
        离线数据基本上不再使用,因此可以保存在离线设备或是磁带库中,不提供在线访问,仅当需要时,恢复至近线数据库进行访问,这类数据需要的是海量存储。离线数据的物理及逻辑存储思路具体如下所述:

        离线数据的物理存储方式。离线数据存储在目前的IBM磁带库中,IBM磁带库通过光纤交换机与近线数据存储相连,采用数据管理平台数据库服务器上安装的NBU备份软件,直接将近线数据备份至磁带库保存,不再提供在线的访问。

        离线数据的逻辑存储方式。离线数据以近线数据库逻辑备份的形式在磁带库的磁带中保存,当数据需要使用时,采用NBU备份数据恢复的方式恢复至近线数据库中进行查询。

        2.数据访问策略

        (1)在线数据的访问策略
        通过优化数据管理平台提高在线数据访问效率。为提高数据查询性能、优化数据管理平台的数据查询模功能,查询列表默认显示当月数据,并提供按月的数据查询功能,改变目前查询和列表显示全表数据的方式。由于数据按月分区存储,每月数据查询可在一个数据分区处理,查询速率大大提高。

        (2)近线数据的访问策略
        在数据管理平台中新增近线数据的查询功能。数据管理平台增加按月查询近线数据的功能以及近线数据源的数据抽取功能,因此需要在数据管理平台新增近线数据JNDI数据源,并在数据管理平台应用服务器中编目近线数据库,使数据管理平台能够识别近线数据源,通过新增的查询以及数据抽取功能,从而可以方便的获取这些数据。

        (3)离线数据的访问策略
        离线数据存储在磁带库中,无法直接访问,当需要访问离线数据时,通过NBU备份软件的数据恢复功能将离线数据恢复至近线数据库对应的数据分区,通过数据管理平台的近线数据访问功能访问相关数据。

        3.数据迁移策略

        目前数据管理平台生产环境采用的是单一数据分区的方式,要创建分区数据库,首先需要将目前数据库中的所有数据迁移至近线数据分区中,数据迁移完成后,删除原有的历史类数据库表,重新采用分区表的形式创建,分区表创建完成后,再将近线数据分区的数据恢复至在线数据分区。通过以上方式实现在线数据的分区存储。

        在线数据按月分区存储,因此以月为数据转存周期,根据各类在线数据的保存期限,当前月所在分区的数据达到数据生命周期时,将到期数据通过数据库导出导入(export\load)方式转存至近线数据存储中对应的近线数据分区中,数据转存完成后采用Delete或Truncate方式清空在线分区中的过期数据。近线数据仍处于在线状态,可以通过省级数据管理平台查询或将数据抽取至其他应用系统使用。

        在近线数据存储中数据仍然按月分区存储,因此仍以月为数据转存周期,根据各类近线数据的保存期限,当前月所在分区的数据达到数据生命周期时,将到期数据通过NBU数据库逻辑备份的方式备份至磁带库中保存,同时采用Delete或Truncate方式清空近线分区的数据。当需要使用离线数据时,通过NBU数据恢复功能将数据恢复至近线数据存储中进行查询。

        当离线数据达到数据销毁年限时,可直接清除磁带库中的数据。

        数据管理平台的数据存储及数据迁移如图1所示。

大数据环境下数据中心的数据生命周期管理研究-图1.jpg

        4.非结构化数据的数据管理方案

        数据管理平台的非结构化数据主要包括两种:数据文件和日志文件。数据文件是应用系统每日导出的以文本形式保存的增量数据。当数据库中的数据加载异常时,可以将数据文件中的数据重新导入数据库,该数据文件可以看作是文件形式的数据备份。但是数据文件量越来越多,占用较多的存储空间,而这部分数据主要在数据异常时恢复使用,可以恢复应用系统某一天的数据,比起数据库恢复更方便快捷。因此可以设置这部分数据文件的保存期限为三个月,每三个月将数据备份至磁带库保存,同时删除本地服务器上的数据文件。对于存放在磁带库上的数据文件,设置销毁期限,到期进行销毁。

        日志文件主要是数据管理平台每日执行数据接收加载抽取任务时产生的任务日志,该日志文件主要用来排查任务执行过程中的异常情况,及时定位解决问题,当数据成功加载入库并完成抽取任务后,日志文件的作用已不是太重要。因此,对于这类日志文件,采用每三个月定时删除的方式进行清理。

(文章来源:《中国金融电脑》杂志)

首页 上一页 1 2

扫码即可手机
阅读转发此文

本文评论

相关文章